1
Chuyển đổi vượt ra ngoài cách lập trình tổng quát
AI011Lesson 7
00:00

Tối ưu hóa thông qua điều chỉnh tinh tế và các kiến trúc chuyên biệt

1. Vượt xa lời nhắc

Mặc dù "few-shot" (ít ví dụ) là điểm khởi đầu mạnh mẽ, việc mở rộng giải pháp AI thường đòi hỏi phải chuyển sang Điều chỉnh tinh tế có giám sát. Quá trình này tích hợp trực tiếp kiến thức hoặc hành vi cụ thể vào trọng số của mô hình.

Quyết định: Bạn chỉ nên điều chỉnh tinh tế khi cải thiện chất lượng phản hồi và giảm chi phí token vượt trội hơn so với nỗ lực tính toán và chuẩn bị dữ liệu đáng kể.

$Chi phí = Số lượng Token \times Tỷ giá$

2. Cuộc cách mạng của Mô hình Ngôn ngữ Nhỏ (SLM)

Mô hình Ngôn ngữ Nhỏ (SLM) là những phiên bản thu nhỏ, cực kỳ hiệu quả của các mô hình lớn tương ứng (ví dụ: Phi-3.5, Mistral Small). Chúng được huấn luyện trên bộ dữ liệu được chọn lọc kỹ lưỡng, chất lượng cao.

Đổi lấy: SLM cung cấp độ trễ thấp đáng kể và cho phép triển khai tại biên (chạy cục bộ trên thiết bị), nhưng lại hy sinh trí tuệ "giống người" toàn diện và tổng quát vốn có ở các mô hình LLM lớn.

3. Kiến trúc chuyên biệt

  • Tổ hợp Chuyên gia (MoE): Một kỹ thuật cho phép mở rộng kích thước mô hình tổng thể trong khi duy trì hiệu quả tính toán khi suy luận. Chỉ một tập con "chuyên gia" được kích hoạt cho mỗi token cụ thể (ví dụ: Phi-3.5-MoE).
  • Đa chế độ: Các kiến trúc được thiết kế để xử lý văn bản, hình ảnh và đôi khi cả âm than cùng lúc, mở rộng phạm vi ứng dụng vượt xa tạo văn bản (ví dụ: Llama 3.2).
Thứ tự hiệu quả
Luôn cố gắng Kỹ thuật lập trình lời nhắc trước tiên. Nếu thất bại, hãy triển khai RAG (Tạo văn bản tăng cường truy xuất). Dùng Điều chỉnh tinh tế chỉ như bước tối ưu hóa nâng cao cuối cùng.
model_selection.py
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>
Question 1
When does the course recommend proceeding with fine-tuning over prompt engineering?
When the benefits in quality and cost (reduced token usage) outweigh compute effort.
Whenever you need the model to sound more human-like.
As the very first step before trying RAG or prompt engineering.
Only when deploying to an edge device.
Question 2
Which model architecture allows scaling model size while maintaining computational efficiency?
Supervised Fine-Tuning (SFT)
Retrieval-Augmented Generation (RAG)
Mixture of Experts (MoE)
Multimodality
Challenge: Edge Deployment Strategy
Apply your knowledge to a real-world scenario.
You need to deploy a multilingual translation tool that runs locally on a laptop with limited GPU resources.
Task 1
Select the appropriate model family and tokenizer for this multilingual, low-resource task.
Solution:
Mistral NeMo with the Tekken Tokenizer. It is optimized for multilingual text and fits within SLM constraints.
Task 2
Define the deployment framework for high-performance local inference.
Solution:
Use ONNX Runtime or Ollama for local execution to maximize hardware acceleration on the laptop.